#asignación de crédito

PBSD: Destilación Bayesiana Privilegiada para Crédito en Horizonte Largo

Descubre cómo PBSD asigna crédito granular en tareas de largo plazo con auto-destilación bayesiana, mejorando el aprendizaje con recompensas dispersas.

2026-06-09 · 2 min

Atención ilumina razonamiento LLM: ritmo preplan-anclaje para optimización granular

Descubre cómo la atención en los LLM revela un ritmo de preplan y anclaje que optimiza políticas con aprendizaje por refuerzo granular, mejorando el razonamiento.

2026-06-09 · 2 min

LEAF: Post-entrenamiento eficiente de LLMs de voz con RL en árbol

Descubre LEAF, un método RL que asigna ventajas por tramos en LLMs de voz. Supera a GRPO en QA y traducción, incluso con modelos más pequeños. ¡Lee más!

2026-06-09 · 1 min

Agentes LLM auto-evolutivos con optimización en distribución

Descubre Q-Evolve: un marco que permite a los agentes LLM auto-evolucionar optimizando en distribución, mejorando la toma de decisiones a largo plazo con recompensas dispersas.

2026-06-08 · 2 min

Agentes LLM autoevolutivos con optimización en distribución

Q-Evolve permite que agentes LLM se automejoren con optimización en distribución, superando recompensas dispersas. Mayor eficiencia y robustez.

2026-06-08 · 2 min

RREDCoT: Redistribución Segmentada de Recompensas para Razonamiento

Descubre cómo RREDCoT redistribuye recompensas en segmentos de cadenas de pensamiento para reducir la varianza y mejorar el aprendizaje por refuerzo en modelos de razonamiento.

2026-06-05 · 2 min

Crédito denso insuficiente: Optimización calibrada por evidencia para agentes LLM

ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.

2026-06-05 · 2 min

DyNACO: guía neuronal dinámica para optimización de colonias de hormigas

DyNACO: guía neuronal dinámica supera prioridades estáticas, escala a 100k nodos y reduce tiempo.

2026-06-04 · 2 min

Aprendizaje por Refuerzo con Retroalimentación Enriquecida usando DAgger Distribucional

Descubre cómo DistIL optimiza el aprendizaje por refuerzo usando retroalimentación rica (trazas, correcciones, autoevaluación) para mejorar en razonamiento, código y matemáticas.

2026-06-04 · 2 min

Redistribución de Ventajas Basada en Resultados para Razonamiento Matemático

Descubre OAR un nuevo método de GRPO que asigna crédito fino a cada token en razonamiento matemático mejorando el rendimiento sin costo computacional adicional

2026-06-04 · 2 min

Sesgo de Pico Mediado por Trazas en RL

El Sesgo de Pico por Trazas (TMPB) distorsiona la valoración en RL profundo. La optimización adaptativa lo corrige. Implicaciones para IA y neurociencia.

2026-06-04 · 2 min

SHARP: ¿Quién merece la recompensa en sistemas multiagente?

Descubre SHARP: optimización con crédito Shapley para sistemas multiagente. Mejora resultados un 23% frente a métodos tradicionales. ¡Aprende más!

2026-06-03 · 2 min

Investigación Profunda con DecomposeR: RL y Recompensa Estructural

DecomposeR optimiza la investigación profunda con RL centrado en planificador y recompensa estructural. Mejora hasta 8 puntos en benchmarks.

2026-06-03 · 2 min

MulFeRL: Retroalimentación verbal para aprendizaje por refuerzo en multiturno

MulFeRL mejora el aprendizaje por refuerzo usando retroalimentación verbal en múltiples turnos para superar recompensas escalares y potenciar el razonamiento.

2026-06-03 · 2 min

MACCA: Aprendizaje por Refuerzo Multiagente Offline con Asignación Causal

Descubre MACCA, un nuevo marco de MARL offline que asigna crédito causal de forma precisa. Mejora el rendimiento en entornos sin interacción.

2026-06-02 · 2 min

SCOPE: Calibración de Señales en Destilación On-Policy Dual

Descubre cómo SCOPE mejora el razonamiento de los LLMs con destilación adaptativa dual, logrando un 11.42% más de precisión.

2026-06-02 · 4 min

ARCA: Asignación de Crédito Residual con Adaptadores en LLM

ARCA: método ligero de credit assignment para LLM con LoRA. Usa residuos de adaptadores, evita degeneración. Competitivo en MATH/Qwen3 sin reward model.

2026-06-02 · 2 min

SPADER: Recompensas de Exploración con Diversidad para QA Multi-Respuesta

SPADER utiliza aprendizaje por refuerzo con recompensas de exploración diversa para mejorar el recuerdo y F1 en QA multi-respuesta.

2026-06-02 · 2 min

Score Broadcast y Descorrelación: Marco General de Asignación de Crédito

El nuevo marco Score Broadcast and Decorrelation (SBD) mejora la asignación de crédito por broadcast, con soporte para múltiples pérdidas y resultados superiores en CIFAR-10.

2026-06-01 · 2 min